Цензурирование обучающих выборок с использованием регуляризации отношений связанности объектов классов
Аннотация:
Введение. Рассмотрено цензурирование обучающих выборок с учетом специфики реализации алгоритмов метода ближайшего соседа. Процесс цензурирования связан с использованием множества граничных объектов классов по заданной метрике с целью: поиска и удаления шумовых объектов; анализа кластерной структуры обучающей выборки по отношению связанности. Исследуются специальные условия удаления шумовых объектов и формирования базы прецедентов для обучения алгоритмов. Распознавание объектов по такой базе должно обеспечивать более высокую точность с минимальными затратами вычислительных ресурсов относительно исходной выборки. Метод. Разработаны необходимые и достаточные условия для отбора шумовых объектов из множества граничных. Необходимое условие принадлежности граничного объекта к множеству шумовых задается в виде ограничения (порога) на отношение расстояний до ближайшего объекта из своего класса и его дополнения. Поиск минимального покрытия обучающей выборки эталонами производится на основе анализа кластерной структуры. Эталоны представлены объектами выборки. Структура отношений связанности объектов по системе гипершаров используется для их группировки. Состав групп формируется из центров (объектов выборки) для гипершаров, в пересечении которых содержатся граничные объекты. Значение меры компактности вычисляется как среднее число объектов обучающей выборки за вычетом шумовых, притягиваемое одним эталоном минимального покрытия. Выполняется анализ связи обобщающей способности алгоритмов при машинном обучении со значением меры компактности. Наличие связи обосновывается по критерию (регуляризатору) для отбора числа и состава множества шумовых объектов. Оптимальные коэффициенты регуляризации определяются как значения порогов для удаления шумовых объектов. Основные результаты. Показана связь между значением меры компактности обучающей выборки и обобщающей способностью алгоритмов распознавания. Связь выявлена по эталонам минимального покрытия выборки, из которых сформирована база прецедентов. Обнаружено, что точность распознавания по базе прецедентов выше, чем на исходной выборке. Минимальный состав базы прецедентов включает описания эталонов и параметры локальных метрик. При использовании процедур нормирования данных требуются дополнительные параметры. Анализ значений меры компактности востребован для обнаружения переобучения алгоритмов, связанного с размерностью признакового пространства. Распознавание по базе прецедентов минимизирует затраты вычислительных ресурсов с помощью алгоритмов метода ближайшего соседа. Обсуждение. Приводятся рекомендации по разработке моделей из области информационной безопасности, для обработки и интерпретации данных социологических исследований. Для использования в информационной безопасности формируется база прецедентов для идентификации DDOS-атак. Новые знания из области социологии предлагается получать через анализ значений показателей шумовых объектов и интерпретацию результатов разбиения респондентов на непересекающиеся группы по отношению к связанности объектов. Конфигурации групп по отношению связанности изначально не известны. Нет смысла вычислять их центры, которые могут размешаться за пределами конфигураций. Для объяснения содержимого групп предложено использовать эталоны минимального покрытия.
Ключевые слова:
Постоянный URL
Статьи в номере
- Методика выбора параметров оптико-электронных систем контроля износа рабочих лопаток паровых турбин по заданной величине суммарной погрешности
- Моделирование и анализ фрактального преобразования искаженных снимков земной поверхности, получаемых оптико-электронными системами наблюдения
- Способ быстрой разметки сверхбольших данных аэросъемки
- Задача адаптивного субоптимального управления и ее вариационное решение
- Управление по выходу для класса нелинейных систем на основе динамической линеаризации
- RuPersonaChat: корпус диалогов для персонификации разговорных агентов
- Оптимизированный метод глубокого обучения для прогнозирования дефектов программного обеспечения с использованием алгоритма оптимизации кита
- Гарантированное обнаружение структурных аномалий в потоковых данных с использованием модели RRCF: выбор параметров обнаружителя и его стабилизация в условиях аддитивных шумов
- ViSL One-shot: генерация набора данных вьетнамского языка жестов
- Оценка вероятностно-временных характеристик компьютерной системы с контейнерной виртуализацией
- Новый метод противодействия состязательным атакам уклонения на информационные системы, основанные на искусственном интеллекте
- О свойствах М-оценок, оптимизирующих весовую L2-норму функции влияния
- Устойчивость высокоупругой прямоугольной пластинки с защемленно-свободными краями при одноосном сжатии
- Модели и методика моделирования деформаций в САПР ANSYS для систем железнодорожных вагонных весов
- Применение метода решеточных уравнений Больцмана для решения задач динамики вязкой несжимаемой жидкости
- От конструирования вейвлетов на основе производных функции Гаусса к синтезу фильтров с конечной импульсной характеристикой
- Метод разбиения единицы и гладкая аппроксимация
- Подход к разработке программных продуктов в стартапе
- Моделирование восприятия рекомендаций системы поддержки принятия врачебных решений на основе предсказательного моделирования при проведении профилактических осмотров врачами-стоматологами